Programmation de processeurs massivement parallèles : Une approche pratique : Le modèle d'exécution CUDA : Hôte vs. Dispositif

Le modèle d'exécution CUDA transforme votre ordinateur en un système hétérogène haute performance. Imaginez un Grand Directeur (l'Hôte/UCP) et une Armée de milliers (le Dispositif/GPU). Le Directeur gère la logique complexe et la prise de décision, tandis que l'Armée exécute des tâches massives et répétitives simultanément.

1. La division architecturale

L' Hôte est un processeur optimisé pour la latence, conçu pour les flux de contrôle complexes et les tâches séquentielles. À l'inverse, le Dispositif est un GPU optimisé pour le débit, comprenant des milliers de cœurs simples conçus pour exécuter la même instruction sur de vastes jeux de données simultanément.

2. Le rythme d'exécution

Un programme CUDA fonctionne comme une série de phases. L'exécution commence sur l'Hôte pour le "code séquentiel." Lorsque le programme atteint un "noyau parallèle," il lance une Grille de fils sur le Dispositif. Le contrôle revient à l'Hôte une fois que le Dispositif a terminé sa charge de travail massive.

3. Spécialisation des performances

Le modèle exploite les forces des deux : l'UCP gère les ressources système et les branches complexes, tandis que le GPU exécute SPMD (Programme unique, multiples données) la logique pour traiter les éléments de données en parallèle.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which architecture is characterized as being 'throughput-optimized'?

The Host (Intel® CPU)

The Device (NVIDIA® GPU)

The System RAM

The PCIe Bus

QUESTION 2

The reader should complete Part 1 of the MatrixMultiplication() example in Figure 3.6 with similar declarations of an Nd and a Pd pointer variable as well as their corresponding cudaMalloc() calls. Furthermore, Part 3 in Figure 3.6 can be completed with mandatory calls.

float *Nd, *Pd; cudaMalloc((void**)&Nd, size); ... cudaFree(Nd);

float Nd, Pd; malloc(&Nd, size); ... free(Nd);

float *Nd, *Pd; cudaMemcpy(Nd, Pd, size); ... delete Nd;

int Nd, Pd; Nd = new float[size]; ... free(Nd);

QUESTION 3

In the CUDA execution model, where does a program always begin its execution?

On the Device (GPU)

Simultaneously on both

On the Host (CPU)

In the Global Memory

QUESTION 4

What happens when the Host encounters a phase with rich data parallelism?

It speeds up its clock frequency.

It launches a Kernel onto the Device.

It stores the data in the Host Cache.

It converts the code to Python.

QUESTION 5

A student attempts to launch a 1024x1024 matrix multiplication on G80 hardware using 1024 blocks, where each thread calculates one element. Why will this fail?

The G80 cannot handle 1024 blocks.

The total number of threads exceeds 1 million.

The configuration results in 1024 threads per block, exceeding the 512 hardware limit.

Matrix multiplication is not data parallel.